我们提出了一个新的框架,以重建整体3D室内场景,包括单视图像的房间背景和室内对象。由于室内场景的严重阻塞,现有方法只能产生具有有限几何质量的室内物体的3D形状。为了解决这个问题,我们提出了一个与实例一致的隐式函数(InstPifu),以进行详细的对象重建。与实例对齐的注意模块结合使用,我们的方法有权将混合的局部特征与遮挡实例相结合。此外,与以前的方法不同,该方法仅代表房间背景为3D边界框,深度图或一组平面,我们通过隐式表示恢复了背景的精细几何形状。在E SUN RGB-D,PIX3D,3D-FUTURE和3D-FRONT数据集上进行的广泛实验表明,我们的方法在背景和前景对象重建中均优于现有方法。我们的代码和模型将公开可用。
translated by 谷歌翻译
图像修饰,旨在再生给定图像的视觉令人愉悦的演绎,是用户具有不同美学感觉的主观任务。大多数现有的方法都部署了确定性模型,以从特定的专家那里学习修饰样式,从而使其不太灵活地满足各种主观偏好。此外,由于对不同图像的有针对性处理,专家的内在多样性也被缺乏描述。为了避免此类问题,我们建议通过基于流动的架构来学习各种图像修饰。与直接生成输出图像的当前基于流的方法不同,我们认为在样式域中学习可以(i)将修饰样式从图像内容中解开,(ii)导致稳定的样式表现形式,并且(iii)避免空间不和谐效果。为了获得有意义的图像音调样式表示,设计了联合培训管道,设计由样式编码器,条件修饰网和图像音调样式正常化流量(TSFLOW)模块组成。特别是,样式编码器预测了输入图像的目标样式表示,该图像是用于修饰的修饰网中的条件信息,而TSFlow将样式表示向量映射到前向通行中的高斯分布。训练后,TSFlow可以通过从高斯分布中取样来生成多样的图像音调矢量。关于MIT-Adobe Fivk和PPR10K数据集的广泛实验表明,我们提出的方法对最新方法有利,并且有效地产生了不同的结果以满足不同的人类美学偏好。源代码和预培训模型可在https://github.com/ssrheart/tsflow上公开获得。
translated by 谷歌翻译
估计看不见对象的6D姿势对许多现实世界应用非常有需求。但是,当前的最新姿势估计方法只能处理以前训练的对象。在本文中,我们提出了一项新任务,以使算法能够估计测试过程中新颖对象的6D姿势估计。我们收集一个具有真实图像和合成图像的数据集,并且在测试集中最多可见48个看不见的对象。同时,我们提出了一个名为infimum Add(IADD)的新指标,这是对具有不同类型姿势歧义的对象的不变测量。还提供了针对此任务的两个阶段基线解决方案。通过训练端到端的3D对应网络,我们的方法可以准确有效地找到看不见的对象和部分视图RGBD图像之间的相应点。然后,它使用算法鲁棒到对象对称性从对应关系中计算6D姿势。广泛的实验表明,我们的方法的表现优于几个直观基线,从而验证其有效性。所有数据,代码和模型都将公开可用。项目页面:www.graspnet.net/unseen6d
translated by 谷歌翻译
许多基本的室内活动,例如饮食或写作,总是在不同的桌面上(例如咖啡桌,写桌)进行。在3D室内场景解析应用程序中了解桌面场景是必不可少的。不幸的是,由于3D桌面场景在当前数据集中很少可用,因此很难通过直接部署数据驱动算法来满足这一需求。为了解决此缺陷,我们介绍了To-Scene,这是一个专注于桌面场景的大规模数据集,其中包含20,740个带有三个变体的场景。为了获取数据,我们设计了一个高效且可扩展的框架,在该框架中开发了众包UI将CAD对象从模型网和Shapenet传递到扫描室的桌子上,然后将输出桌面场景模拟为真实的扫描并自动注释。此外,提出了一种桌面吸引的学习策略,以更好地感知小型桌面实例。值得注意的是,我们还提供了真正的扫描测试集,以验证待机的实际价值。实验表明,经过训练的to-Scene的算法确实在现实的测试数据上工作,而我们提出的桌面感知学习策略极大地改善了3D语义细分和对象检测任务的最新结果。数据集和代码可在https://github.com/gap-lab-cuhk-sz/to-scene上找到。
translated by 谷歌翻译
在线实时竞标(RTB)是一款复杂的拍卖游戏,广告商在发生用户请求时很难为广告印象出价。考虑到显示成本,投资回报率(ROI)和其他有影响力的关键绩效指标(KPI),大型广告平台试图平衡动态各个目标之间的权衡。为了应对挑战,我们提出了一种基于强化学习(RL)的多目标参与者侵犯算法,名为Motiac,因为它具有各种目标的优化问题。在MOTIAC中,特定于特定的代理商具有不同的目标和观点的异步更新全球网络,从而实现了强大的招标政策。与以前的RL模型不同,所提出的MOTIAC可以同时完成复杂的招标环境中的多目标任务。此外,我们在数学上证明我们的模型将收敛到帕累托最优性。最后,从腾讯上进行大规模真实世界的商业数据集进行实验,验证了Motiac的有效性与一系列最近的方法
translated by 谷歌翻译
We propose a distributionally robust return-risk model for Markov decision processes (MDPs) under risk and reward ambiguity. The proposed model optimizes the weighted average of mean and percentile performances, and it covers the distributionally robust MDPs and the distributionally robust chance-constrained MDPs (both under reward ambiguity) as special cases. By considering that the unknown reward distribution lies in a Wasserstein ambiguity set, we derive the tractable reformulation for our model. In particular, we show that that the return-risk model can also account for risk from uncertain transition kernel when one only seeks deterministic policies, and that a distributionally robust MDP under the percentile criterion can be reformulated as its nominal counterpart at an adjusted risk level. A scalable first-order algorithm is designed to solve large-scale problems, and we demonstrate the advantages of our proposed model and algorithm through numerical experiments.
translated by 谷歌翻译
Semi-supervised learning (SSL) has achieved great success in leveraging a large amount of unlabeled data to learn a promising classifier. A popular approach is pseudo-labeling that generates pseudo labels only for those unlabeled data with high-confidence predictions. As for the low-confidence ones, existing methods often simply discard them because these unreliable pseudo labels may mislead the model. Nevertheless, we highlight that these data with low-confidence pseudo labels can be still beneficial to the training process. Specifically, although the class with the highest probability in the prediction is unreliable, we can assume that this sample is very unlikely to belong to the classes with the lowest probabilities. In this way, these data can be also very informative if we can effectively exploit these complementary labels, i.e., the classes that a sample does not belong to. Inspired by this, we propose a novel Contrastive Complementary Labeling (CCL) method that constructs a large number of reliable negative pairs based on the complementary labels and adopts contrastive learning to make use of all the unlabeled data. Extensive experiments demonstrate that CCL significantly improves the performance on top of existing methods. More critically, our CCL is particularly effective under the label-scarce settings. For example, we yield an improvement of 2.43% over FixMatch on CIFAR-10 only with 40 labeled data.
translated by 谷歌翻译
Edge computing-based 3D perception has received attention in intelligent transportation systems (ITS) because real-time monitoring of traffic candidates potentially strengthens Vehicle-to-Everything (V2X) orchestration. Thanks to the capability of precisely measuring the depth information on surroundings from LiDAR, the increasing studies focus on lidar-based 3D detection, which significantly promotes the development of 3D perception. Few methods met the real-time requirement of edge deployment because of high computation-intensive operations. Moreover, an inconsistency problem of object detection remains uncovered in the pointcloud domain due to large sparsity. This paper thoroughly analyses this problem, comprehensively roused by recent works on determining inconsistency problems in the image specialisation. Therefore, we proposed a 3D harmonic loss function to relieve the pointcloud based inconsistent predictions. Moreover, the feasibility of 3D harmonic loss is demonstrated from a mathematical optimization perspective. The KITTI dataset and DAIR-V2X-I dataset are used for simulations, and our proposed method considerably improves the performance than benchmark models. Further, the simulative deployment on an edge device (Jetson Xavier TX) validates our proposed model's efficiency. Our code is open-source and publicly available.
translated by 谷歌翻译
在本文中,我们提出了一个称为SDFE-LV的大规模,多源和不受约束的数据库,用于发现长视频中完整动态面部表达的发作和偏移帧,这被称为动态面部表情斑点的主题(DFE)和许多面部表达分析任务的重要步骤。具体而言,SDFE-LV由1,191个长视频组成,每个视频包含一个或多个完整的动态面部表情。此外,在相应的长视频中,每个完整的动态面部表达都被10次训练有素的注释者独立标记了五次。据我们所知,SDFE-LV是DFES任务的第一个无限制的大规模数据库,其长期视频是从多个现实世界/密切现实世界中的媒体来源收集的,例如电视采访,纪录片,电影和电影,以及我们媒体短视频。因此,在实践中,SDFE-LV数据库上的DFE任务将遇到许多困难,例如头部姿势变化,遮挡和照明。我们还通过使用许多最新的深度发现方法,从不同角度提供了全面的基准评估,因此对DFE感兴趣的研究人员可以快速而轻松地开始。最后,通过有关实验评估结果的深入讨论,我们试图指出几个有意义的方向来处理DFES任务,并希望将来DFE可以更好地进步。此外,SDFE-LV将仅尽快自由发布供学术使用。
translated by 谷歌翻译
只有单个目标扬声器的语音供参考的单发语音转换(VC)已成为一个热门研究主题。现有作品通常会散布音色,而有关音高,节奏和内容的信息仍然混合在一起。为了进一步删除这些语音组件,有效地执行一声VC,我们采用随机重新采样用于音高和内容编码器,并使用互信息的各种对比对数比率上限和基于梯度反向层的对抗性相互信息学习来确保不同部分在训练过程中仅包含所需的分离表示的潜在空间。 VCTK数据集的实验显示该模型就自然性和智能性方面实现了一声VC的最新性能。此外,我们可以通过语音表示分离分别传递音色,音调和节奏的单发VC的特征。我们的代码,预训练的模型和演示可在https://im1eon.github.io/is2022-Srdvc/上获得。
translated by 谷歌翻译